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摘要 随 着 认 知 诊断 计 和 


CD-CAT) 理论 与 实践 的 发 展 ， 娃 


机 化 


顾 知 识 状态 与 能 力 的 双 目 标 CD-CAT 逐渐 受到 习 
策略 是 CAT 的 核心 ， 通 过 梳理 传统 CD-CAT MX H 
的 特点 、 关 系 及 表现 进行 介 


何洁 ! 


2 德阳 市 东 汽 小 学 , 四 川 德阳 ，618000) 


自 适应 测验 (cognitive diagnostic computerized adaptive testing， 
EA. 。 选 题 
标 CD-CAT 选 题 策略 的 研究 ， 并 对 它们 


和 评析 。 最 后 ， 基 于 认 知 诊断 模型 与 CAT 实践 发 展 指出 未 来 


应 加 强 一 般 化 认 知 模型 、 复 杂 测 验 条 件 认 知 诊断 模型 下 选 题 策略 的 研究 ; 应 开发 双 目标 诊断 


测验 的 项 目 


和 测验 特征 指标 ， 还 应 加 强 非 参数 选 题 方法 和 CD-CAT 的 实践 应 


关键 词 计算 机 化 


适应 测验 ， 认 知 诊断 模型 ， 选 题 策略 ， 测 量 精 


1 引言 


项 目 反 应 理论 Citem response theory, IRT)〉 通 过 分 析 项 目 反 应 数据 记 


ji (0 ) 水 平 ， 常 月 


于 比较 与 


4 度 ， 非 统计 约束 


研究 。 


FE 估 被 试 连续 潜在 特 
抽 选 被 试 。 随 着 国内 、 外 教育 改革 的 不 断 深入 ， 教 育 质量 评估 


要 求 加 强 对 学 生 学 习 过 程 的 形成 性 评价 , 并 提供 详细 的 教学 指导 信息 以 促进 教育 发 展 。 认 知 


诊断 理论 (cognitive diagnostic theory, CDT) 在 教 
试 对 特定 领域 知识 的 掌握 情况 、 加 工 技 能 和 认 知 过 程 ,还 能 为 被 试 进行 补 于 


CDT 作为 现代 心理 与 教育 测量 理论 ， 已 广泛 应 用 了 


的 帮助 。IRT 和 


育 质量 评估 实践 


应 运 而 生 。 


据 ， 并 成 为 计生 


CAT 是 一 


时 间 ， 进 而 提高 测验 效率 (Cheng, 2009) 。CAT 自 提出 以 来 就 人 


机 化 自 适 应 测验 (computerized adaptive testing, CAT) 的 到 
新 型 测验 模式 ， 实 现 了 测验 的 量体裁衣 。 与 传统 纸 笔 测验 相 比 ， 它 在 获得 


相似 测量 精度 的 条 件 下 既 能 保证 测验 效 度 、 测验 公平 和 测验 安全 ， 


Ar Sb 


6 用 


评估 被 
改 学 习 提供 个 性 化 
分 析 教育 与 心理 测验 数 
论 基础 。 


还 缩短 了 测验 长 度 和 测验 


广泛 关注 。 它 包括 


题库 、 初 始 项 目 
要 组 成 部 分 。 若 把 CAT 比 作 一 台 机 器 ， 那 么 题库 便 是 物质 基 而 
方式 ， 能 力 估 计 方 法 是 推动 力 ， 终 止 规则 就 是 停 
切 性 ， 也 决定 着 整个 测验 的 效率 和 测验 公平 


止 键 。 


Set 


还 是 影响 测验 成 本 和 测验 安全 的 重要 因 


是 ， 选 题 策略 成 为 CAT 研究 的 核心 内 容 之 一 ， 影 响 着 CAT 未 来 发 展 的 方向 。 


起 初 ，CAT 仅 评 估 被 试 宏观 的 单 维 〈 多 维 ) 连续 潜在 特质 水 3 
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究 者 和 教育 实践 者 的 
的 选择 、 选 题 策略 、 能 力 估 计 方 法 和 测验 终止 规则 几 个 习 
1， 选 题 策略 决定 CAT 的 运转 


其 中 ， 选 题 策略 决定 了 单个 项 目的 适 


ro 


素 。 T 


P CO) 或 者 微观 离散 的 


知识 状态 (knowledge states, KS) (a) 。 虽 然 连续 潜在 特质 与 离散 KS 代表 被 试 不 同 侧面 
的 特征 ， 但 它们 并 不 相互 排斥 ， 而 是 密切 联系 的 统一 体 。 因 而 ，CAT 中 如 何 同 时 评估 被 试 
的 8 和 a 成 为 一 个 有 价值 的 研究 问题 ， 推 动 了 兼顾 KS 和 能 力 的 双 目 标 CD-CAT 
(dual-objective CD-CAT) 的 研究 。 于 是 ， 本 文 首 先 系 统 梳理 了 传统 CD-CAT 《以 估计 被 试 
KS 为 目的 的 CD-CAT) 和 双 目 标 CD-CAT 选 题 策略 的 研究 进展 。 然 后 ， 通 过 对 各 类 选 题 策 
略 的 特点 、 关 系 及 表现 进行 介绍 和 评价 ， 以 期 把 握 其 发 展 脉络 和 趋势 。 最 后 ， 基 于 认 知 诊断 
模型 与 CAT 实践 指出 未 来 研究 的 几 个 方向 : 应 加 强 一 般 化 认 知 模型 、 复 杂 测 验 条 件 认 知 诊 
断 模 型 下 选 题 策略 的 研究 ; 应 开发 双 目 标 诊断 测验 的 项 目 和 测验 特征 指标 ; 还 应 加 强 非 参数 


选 题 方 法 和 CD-CAT 的 实践 研究 。 


下 文 用 KL 和 7 了 分别 表示 测验 考察 的 属性 个 数 、 测 验 长 度 和 已 施 测 项 目 数 , {i,i,,.…,iz} 


= 5X, = (XX, X) 代表 已 施 测 项 目 及 反应 ， 丸 与 及 = RI fi,i,,.5ip} 表示 题库 和 剩余 题 


FE, a 和 4 分 别 表 示 真 实 的 和 当前 估计 的 KS。 另外 , 所 有 KS 的 集合 为 @ = {0,055.04} > 


所 有 KS 对 的 集合 为 Oo={tasa)ldqaa so 。 Qo WF OR 


Q ={(a,,4,)|@, £ @ gk € {1,2,..,K}, Vm k, Qm =CQ 表示 仅 在 某 一 个 属性 上 具备 


不 同 掌握 状态 的 KS 对 的 集合 ,集合 Qi ={(a,.4,) ay =La, =0, YME k, An =A} 是 


Q 的 子 集 ， 仅 与 属性 大 相关 。 

2 传统 CD-CAT 项 目 选 择 策略 
测量 精度 是 CAT 的 首要 目标 , 但 CAT 又 不 能 一 味 追 求 高 测量 精度 而 不 顾 一 些 非 统计 约 
束 条 件 ， 如 内 容 约束 和 项 目 上 曝光 控制 。 因 而 ，CAT 发 展 至 今 ， 其 选 题 策略 的 研究 几乎 都 转 
绕 这 些 方面 展开 。 
2.1 提高 测量 精度 的 选 题 方法 

项 目 特 征 与 被 试 KS 是 CAT 选择 项 目的 依据 。 近 二 十 年 来 ， 研 究 者 不 断 突破 传统 CAT 
的 研究 思路 ， 极 大 地 丰富 了 CD-CAT 选 题 策略 的 研究 。 总 体 上 ， 传 统 CD-CAT 选 题 策略 沿 
着 : 项 目 反应 分 布 、KS 后 验 分 布 和 结合 项 目 与 被 试 特征 视角 建构 提高 测量 精度 的 选 题 指标 。 
2.1.1 基于 项 目 反 应 分 布 的 信息 量 选 题 指标 


Kullback-Leibler (KL ) 是 最 基础 的 选 题 指 标 。 项目 j 的 KL 信息 量 等 于 反应 分 布 P(x A) 


Al P(x, |a,)(c =12,…24) 的 KL 信息 量 之 和 , MKL =) KL (â 


a.) (Xu et al., 2003) 。 


利用 KS 的 后 验 分 布 P(a。 


X,) 对 KL 信息 加 权 就 得 到 后 验 加 权 KL 信息 (posterior-weighted KL, 


2* A 
PWKL) , PWKL, =) )_,KL,(a 


a.) ` P(a, 


X,) o WRAAE A Aâ, a) RBA 


与 a, 的 相似 性 ， 便 得 到 HKL, =Y KL (â 


a,): Pa .iX,):(h(6,q.,))”， 称 为 混合 KL 


KA (the hybrid KL, HKL) 。 最 后 ， 若 PWKL Fâ 取 遍 所 有 可 能 情况 ， 就 是 修订 的 PWKL 


joe ApS 25 a 
Wk, 记 为 MPWKL, =} PCG, 


X,)-PWKL,(4,) « 


KL. PWKL, HKL 和 MPWKL 均 选 择 信 息 量 最 大 的 项 目 。 它 们 是 几 种 最 基础 和 常用 的 


选 题 策略 。 研 究 表明 , PWKL 和 HKL 表现 类 似 , 均 优 于 KL 方法 (Cheng, 2009; Wang, 2013). 


与 PWKL 相 比 ，MPWKL 计算 更 复杂 ， 短 测验 测量 精度 更 高 。 当 测验 长 度 达 20 及 以 上 时 二 


者 无 明显 差异 (Kaplan et al., 2015) 。 


2.1.2 基于 KS 后 验 分 布 的 信息 量 选 题 指标 


FKR Cshannon entropy, SHE) 和 互信 息 (mutual information, MI) 是 基于 KS 后 验 分 


AP AIG LAT TA «HU EE BTU fea Oe) A I I EL, Je ERE LE P(X, ) 


与 P(alXi,xi,) 的 预测 KL 信息 最 大 的 项 目 (Zheng & Chang, 2016) 。 换 言 之 ， 


5 1 
SHE = arg min{2,,,H(P(o., Xr x, =x)) P(x; = x|X,)}, d) 


MI =arg max{> P(x, =xK,)- 3 KL(P(a, |X, x; = x) || Pa, [X;))}. (2) 


Wang (2013) 指出 在 大 多 数 情况 下 MI 方法 比 PWKL、SHE 和 KL 的 测量 精度 更 高 。 
由 于 SHE 和 MI 方法 涉及 预测 反应 分 布 , 计算 比较 复杂 ,他 将 MI 展开 并 进行 简化 得 到 简化 
MI 方法 。 该 方法 计算 更 简单 、 所 需 时 间 更 短 且 不 明显 降低 测量 精度 。 

2.1.3 结合 项 目 与 被 试 特征 的 选 题 指标 


认 知 诊断 模型 中 项 目 特征 包括 q K 


量 、 认 知 诊断 区 分 度 (cognitive discrimination index, 


二 


CDI) (Henson & Douglas, 2005) 、 属 性 区 分 度 (attribute discrimination index, ADI) (Henson 


et al., 2008) 和 广义 决定 性 输入 ， 噪 音 “ 与 ” 门 模型 (the generalized deterministic inputs, noisy 


“and” gate model, G-DINA) 区 分 度 指标 上 (de la Torre & Chiu, 2010) ， 被 试 特征 主要 指 KS 


的 后 验 概 率 P(a 


X, )(c =1,2,....2%) 和 属性 掌握 概率 P(@ =1|X,)(k =1,2,...,K) 。 


一 方面 ， 


Xj ) 与 项 目 q 向 量 建构 了 二 分 法 Chalving algorithm, HA) CEC XM 


等 ，2014) ， 结 合 


|X) 9 €? . CDI 和 ADI 提出 G-DINA 模型 区 分 度 指标 (the G-DINA 


model discrimination index, GDI) 777K (Kaplan etal., 2015) 、 后 验 加 权 CDI 


(posterior-weighted CDI, PWCDI) 和 后 验 加 权 ADI Cposterior-weighted ADI, PWADI) Ù 


法 (Zheng & Chang, 2016) ， 分 别 见 式 (3) ~ (6) 。 


HA = arg min{| DF a,|X,)-0.5]} (3) 
GDI = arg max{)) P(a, |X )[ P(x, =1]4,)- > PQ, |X Pœ; =1|9.)])}, (4) 
wa, wa, X,)-P(a, |X; 
PWADI = argmax{(K a in P(a, |X,)-P(a, |X;)-KL,(a, || a,)}. (6) 


值得 注意 的 是 , MPWKL 是 所 有 KS 对 (aq,,Qa,) 的 KL 信息 量 与 a, a, 后 验 概 率 乘积 之 


和 ， 实 质 上 与 汪 文 义 等 (2014) 的 KLED 方法 等 价 。PWCDI 本 质 上 是 对 MPWKL 各 项 取 加 


权 平均 ，PWADI 则 是 MPWKL 中 特定 项 的 平均 值 。PWCDI 最 复杂 ，PWADI RH, i 
发 现 它们 的 模式 判 准 率 无 明显 差异 (Zheng & Chang, 2016) 。 

另 一 方面 ， 项 目 与 被 试 特 征 指标 还 常 作 为 权重 对 信息 量 加 权 构 建 选 题 指标 。 例 如 ， 郭 舌 
等 (2016) 运用 CDI、ADI 对 PWKL 信息 量 加 权 得 到 CDIPWKL 和 ADIPWKL 方法 ， 能 提 


PWKL 的 测量 精度 。 又 如 ， 罗 照 戌 等 人 (2015) 利用 边际 属性 掌握 概率 之 差 


3 


a 


| a= 1X, ,X,)—P(a@y, = 1X7) |3} PWKL 和 HKL 加 权 得 到 PPWKL 和 PHKL 方法 ， 


也 能 提高 PWKL 和 AKL 在 测量 精度 和 项 目 曝光 均匀 的 综合 表现 。 此 外 , 研究 者 还 分 析 特 定 


模型 的 项 目 特征 指标 , 如 DNA 模型 的 项 目 鉴别 力 指数 : 高 分 组 的 通过 率 (1 与 失误 参数 8， 


之 差 ) 减 去 低 分 组 通过 率 (猜测 参数 g; ) ， 记 为 WwW =1-(s,+g,) (Rupp etal,2010) ， 并 


作为 DINA 模型 下 项 目 信 息 量 的 加 权 指 标 ( 郭 大 等 ,2016〉。 由 此 可 见 ， 除 了 一 般 项 目 特征 
指标 外 ， 研 究 特定 模型 下 的 项 目 特征 也 具有 重要 意义 。 
2.2 属性 平衡 的 选 题 策 略 

认 知 属性 是 诊断 测验 的 显著 特点 , 也 是 最 小 的 内 容 单元 。 平衡 属性 考察 次 数 是 保证 测验 
效 度 的 关键 。 


2.2.1 最 大 优先 指标 (maximum priority index, MPI) 方法 


最 大 优先 指标 MPL = 本 [ui -bu 结合 了 属性 的 目标 最 大 测量 次 数 W 、 当 


前 已 考察 次 数 b, 和 O FERETCR qy (Cheng, 2010) 。 运 用 MPI 对 项 目 信 息 量 加 权 选 题 可 以 


提高 测量 精度 。 事 实 上 ，[(w 一 Bb )/ui] 的 值 总 小 于 等 于 1。 于 是 ，MPI 的 值 随 项 目 考 察 的 


属性 增多 而 减 小 ， 并 倾向 于 选择 考察 属性 较 少 的 项 目 ， 导 致 项 目 曝光 不 均匀 。 鉴 于 此 , RA 


SEA (2011) 、 刘 舒畅 等 人 (2018) 、 孙 小 坚 等 人 《〈2019) 对 MPI 进行 修订 ， 分 别提 出 


MPI, = [JÉ -ba +10 ~ MPI => [Go —b,)/ a1" 和 


MPI, =[[ [f(u 5) V/C.CC>O . 。 此 外 ， 刘 舒畅 等 人 〈2018) AMHA CAPR BR 


HEIR SE, CSE m) 建立 了 MP1 = 》，[(SEw 一 SEsx)/SEsx]J“: 孙 小 坚 等 人 (2019) 还 将 


Kuo A (2016) 针对 测验 建构 提出 的 平衡 属性 模式 的 权重 指标 RTA 用 于 满足 属性 的 最 少 


WEKA. HP, RTA, =(1+7(T/K)<3)3 1a, =9,))"，X) 为 指示 函数 ，q) Bla, 


分 别 是 未 作答 和 已 作答 题目 的 q 向 量 。 
刘 和 舒畅 等 人 (2018) 和 孙 小 坚 等 人 (2019) 系统 考察 了 各 个 优先 指标 与 CDI、 KL、PWKL、 
MPWKL 和 MI 乘积 的 选 题 表现 。 结 果 一 致 开明， 改进 的 优先 指标 比 MPI 的 测量 精度 更 高 。 


大 部 分 测验 条 件 下 ，MP1, 优 于 MPI, ，MP7 优 于 MPI; MPI, 与 MPI, 与 不 同 选 题 策略 


结合 选 题 各 有 优势 。 一 般 而 言 ， MP7 较 MPL, 更 能 平衡 项 目 曝光 ， 测 量 精度 稍 低 。 


2.2.2 基于 加 权 离 差 思 想 构建 的 选 题 方 法 


Lin 和 Chang (2018) 借鉴 加 权 离 差 模型 (Swanson & Stocking, 1993) ， 建 立 了 属性 


偏差 指标 WD, = 》 wee Bp — 1 + Da, Me My — By q p) 和 标准 化 加 权 属 性 偏差 指 


Max(WD ,)—WD, 
bx SWD, = 4 J, 
”  Max(WD,)—Min(WD,) 


» WD, 只 计算 每 个 属性 与 其 上 、 


pon 


w, 为 属性 的 权 和 


axe 3 5 =p. pp KL (@,)— Min(KL ,(@;)) 
下 界 的 正 离 差 的 加 权 和 。 类 似 地 , KL 可 标准 化 为 SKL, = MKT (GN _MnKL (GD ` 
ax Qi) -Mn ih 


他 们 比较 了 (一 WD,):KL，( 记 为 WDKL) #1 SWD,-SKL, GEN SWDKL) 的 结果 ， 指 出 


SWDKL 虽然 在 平衡 属性 测量 次 数 和 模式 判 准 率 方面 比 WDKL 表现 更 好 ， 但 它们 的 项 目 曝 
光 不 均匀 。 
2.3 曝光 控制 的 选 题 方 法 


针对 项 目 曝光 不 均匀 性 问题 ， 研 究 者 考察 了 传统 CAT 中 限制 阔 值 方法 (restrictive 


threshold, RT) ~ BR 


| 进度 方法 (restrictive progressive, RPG) 、 分 层 方 法 和 最 大 优先 指标 


的 表现 (Wang etal., 2011; 毛 秀 珍 ， 辛 涛 , 2013; Cheng, 2008) 。Lin 和 Chang (2018) 还 对 


RPG 适当 变形 并 结合 SWDK 和 优先 指标 ， 提 出 约束 渐进 的 SWDKL 方法 (the constrained 


progressive SWDKL, CP_SWDKL) : 


x er T T 
CP_SWDKL ,(G;) = —™= (1 P“ + i xR] (7) 


er; 


erax “SCV; 表示 要 求 的 最 大 曝光 率 和 项 目 /的 曝光 率 ， 令 


a = min{SWDKL,, je R,} ~ b=max{SWDKL,,j¢R,}, 随机 数 R,eU(a,b)， 


Rj €U(SWDKL, -(SWDKL, -a)/ s),SWDKL, + (b-SWDKL,)/ s) o s 是 调整 RR 区 间 长 


=> 


短 的 量 ， 值 越 小 ,区 间 越 大 ， 选 题 越 随机 。 研 究 表明 ，CP_SWDKL 能 显著 提高 SWDKL 和 
KL 的 项 目 曝光 均匀 性 ， 但 也 在 一 定 程度 上 降低 测量 精度 。 总 体 上 讲 ，RIT 和 RPG 方法 能 
较 好 地 控制 项 目 曝光 率 并 提高 题库 利用 率 。 


2.4 CD-CAT 选 题 策略 简 评 


除了 依据 测量 目的 外 ， 还 可 以 从 选 题 方法 的 建构 思路 对 传统 CD-CAT 的 选 题 策略 分 类 《〈 见 
表 1) 。 对 选 题 策 略 的 研究 ， 有 以 下 几 点 思考 。 第 一 : 除 依据 KS 后 验 分 布 定义 香农 彤 和 互信 息 


外 ， 还 可 以 运用 其 它 特征 变量 ， 如 预测 反应 分 布 建立 香农 录 和 互信 息 选 题 方 法 。 鉴 于 SHE 和 MI 


等 方法 计算 复杂 ， 研 究 简化 基于 KS 后 验 分 布 的 选 题 方法 、 挖 掘 它 们 的 关系 都 具有 重要 意义 。 第 
二 , 属性 偏差 指标 是 各 个 属性 测量 次 数 离 差 的 加 权 和 , 优先 指标 是 各 个 属性 测量 次 数 离 差 与 目标 
占 比 的 等 权重 加 权 和 ， 二 者 实质 上 具有 相同 的 建构 思路 。 因 此 ， 基 于 属性 其 它 特征 ， 如 测量 信息 


量 离 差 建立 加 权 指 标 也 是 建构 选 题 方法 的 一 种 重要 思路 。 第 三 , 加 权 选 题 方 法 集中 在 对 反应 分 布 


信息 量 指标 的 加 权 ， 研 究 适 合 其 它 基 础 选 题 指 标的 加 权 方 法 也 是 未 来 有 价值 的 研究 问题 。 最 后 ， 


结合 多 种 思路 的 方法 主要 解决 项 目 曝光 不 均匀 问题 ， 但 大 部 分 研究 局 限于 传统 CAT 的 思想 ， 缺 


乏 系统 对 比 。 因 此 ， 基 于 认 知 诊断 测验 的 特点 发 展 结合 多 种 思路 的 选 题 方法 是 今后 研究 的 重点 。 


传统 CAT (CD-CAT) 在 测验 结束 时 只 报告 0 CG) 。 兼顾 KS 和 能 力 的 双 目 标 CD-CAT 


能 同时 评估 @ 和 6， 引 领 CD-CAT 的 发 展 方向 ， 具 有 重要 的 实践 价值 。 


表 1 


传统 CD-CAT 选 题 策略 汇总 表 


分 类 标准 FA 体 方法 适用 情景 
反应 分 布 信息 量 指标 KL、PWKL、HKL、MPWKL 
基础 选 题 指 标 KS 后 验 分 布 信息 量 指标 SHE、 MI 
基于 项 目 、 被 试 特征 选 题 HA、GDI、PWCDI、PWADI 提高 测量 精度 
基于 区 分 度 、KS 后 验 概率 加 | CDIPWKL 、 ADIPWKL 、 
加 权 选 题 方法 权 PPWKL、 PHKL 
优先 指标 加 权 : MIRER | 对 信息 量 (KL 、PWKL 、 | 平衡 属性 测量 次 数 


MPI,(i =1,2,3,4) 


MPWKL、MI) 加 权 ; 


MP1 .CDT 、MP7 .CDT 


属性 偏差 指标 加 权 WDKL、 SWDKL 
结合 多 种 思路 | 运用 多 个 步骤 或 方法 RT、RPG、 分 层 方法 、 优 先 指 | 平衡 项 目 曝光 率 


P-SWDKL 


标 法 、 


3 双 目 标 CD-CAT 的 项 目 选 


如 何 表征 项 目 关 于 能 力 与 KS 的 信息 是 双 目 
Egi 


与 能 力 信息 量 的 结合 方式 , 可 将 双 目 标 CD-CAT 
量 加 权 平 均 方法 和 约束 加 权 信 ， 


统 CD-CAT 的 重要 特征 。 根 据 KS 
法 分 为 三 类 : 两 阶段 选 题 法 、 信 息 
3.1 两 阶段 选 

两 阶段 选 题 方 法 包括 两 步 法 和 
测验 结束 时 利用 所 有 项 目的 反应 估 
次 ，CAT 中 影子 测验 方法 在 选 
BLM H 


题 方法 


， 通 过 


(2008) 、 


的 项 目 。 


先 择 策 略 


标 CD-CAT 选 题 策略 的 核心 , 也 是 区 别 于 传 


的 选 题 方 


息 量 方法 。 


影子 测验 方法 。 首 先 ， 两 步 法 在 传统 CAT〈 或 CD-CAT) 


tha (RKO) ， 是 实现 双 目 标 CD-CAT 最 直接 的 方法 。 其 


题 之 前 依据 一 定 标准 构造 影子 测验 ， 然 后 在 影子 测验 中 选择 
十 两 步 选 题 为 实现 双 目 标 CD-CAT 提供 了 可 能 


。 例 如 ，McGlohen 和 Chang 


杜 宣 宣 (2010) 分 别 以 0 AUG 构造 影子 测验 ， 然 后 分 别 选 择 使 8 和 0 信息 量 最 大 


两 步 法 简单 易 行 ， 但 仅 依据 a (或 9 ) 的 信息 选 题 ， 不 能 同时 保证 8 和 0 的 测量 精度 


(McGlohen & Chang, 2008) 。 与 两 步 法 相 比 ， 
还 提高 了 项 目 上 曝光 均匀 性 。 但 影子 测验 方法 也 是 将 a 和 0 的 信 


能 优先 保证 a 或 9 的 估计 精度 。 


因此 ， 结 合 


Q 和 0 的 信 ， 


影子 测验 方法 能 有 效 提高 a 和 0 的 估计 精度 ， 
息 独 立地 应 
电 建 立项 目 选择 指标 成 为 探索 双 目 标 


于 选 题 ,往往 只 


CD-CAT 研究 的 新 方向 。 
3.2 信息 量 加 权 平 均 方 法 


3.2.1 双 信 息 选 题 方法 (dual information, DI) 


Cheng 和 Chang (2007) Bcd PWKL (4) A KL (Ô) 提出 项 目 7 的 DI 信息 量 指标 


DI, = wPWKL (4) + (1-w)KL,(0) 。DI 方 法 结合 了 KS 和 能 力 估计 值 的 信息 ， 选 择 使 


DI 值 最 大 的 项 目 。 但 是 PWKL (4) 和 KL,(0) 的 取 值 相差 较 大 ,后 者 对 DI 的 影响 很 小 (Wang 


etal., 2014) 。 于 是 ， 将 它们 转换 到 相同 量 表 再 加 权 平 均 无 疑 是 一 种 更 合理 的 方法 。 
3.2.2 信息 量 统一 量 纲 加 权 平 均 方法 
百 分 等 级 、 标 准 化 转换 与 对 数值 转换 是 统计 学 上 常用 的 统一 量 纲 方法 。 鉴 于 此 ，Wang 


EA (2014) 提出 先 对 PWKL(Â) 和 PWKL(0) 进行 百 分 等 级 ( pe[-] ) 或 标准 分 数 ( s[:]) 


转换 后 再 加 权 平 均 ， 得 到 百 分 等 级 合成 法 (aggregate ranked information method, ARI) 和 标 


(EAE A WE (aggregate standardized information method, ASI) , BẸ: 


ARI , = arg max {w- pe[PWKL, (a)]+(1-w)- pe[PWKL (ô)], JER;} (8) 
ASI , = arg max{w-s[PWKL ,(4)]+(1-w)-s[KL ,(0)], j € Rp} (9) 
不 同 于 百 分 等 级 和 标准 化 思想 ，Dai SEA (2016) 提出 先 对 0 的 Fisher 信息 量 7 KO) 和 


SHE, (Q) 进行 对 数值 转换 ， 然 后 加 权 求 和 得 “ 带 有 信息 量 的 有 序 度 ”(dapperness with 


Information, DWD 选 题 指 标 wlog(7， (ô) -(1-w)log(SHE, (â)) 。 他 们 通过 模拟 研究 表 发 现 


OW 0.5 时 表现 最 佳 。 于 是 ， DWI 方 法 便 简化 为 选择 使 1,(0)/SHE,(6) 最 大 的 项 目 。 研究 


RK, DW 与 影子 测验 方法 相 比 ， 模 式 判 准 率 相似 ， 能 力 估计 更 准确 。 


由 此 可 见 ，ARI、ASI 与 DWI 都 基于 DI 方法 对 和 0 的 信息 量 进行 量 纲 统一 转换 而 来 。 


ARI 对 连续 信息 量 排序 获得 对 应 的 百 分 等 级 ,在 一 定 程度 上 导致 信息 丢失 , 且 容 易 受 题库 大 
小 的 影响 ，DWI 能 避免 题库 大 小 和 极端 值 对 选 题 的 影响 C Zheng et al., 2018) 。 总 体 上 讲 ， 
与 DI 方法 相 比 ， 在 KS 和 能 力 估计 方面 ，ARI 的 表现 更 差 ，ASI 方法 更 优 ，DWI 方法 的 能 


力 估计 精度 更 高 。 此 外 ，ASI 和 ARI 方法 不 局 限于 PWKL fae. 例如 ,Kang 等 人 (2017) 


在 ASI 和 ARI 方法 中 运用 MPWKL 信息 量 后 分 别 得 到 MASI Fl MARI 方法。 


3.2.3 Jensen-Shannon (JS) 距离 选 题 方法 


根据 Lin (1991) 中 JS 距离 的 定义 ，Kang 等 人 (2017) 首先 定义 加 权 分 布 
g=wf,+U-w)f,> 
离 如 下 : 


O 


平均 ， 进 而 定义 项 目 j 的 JS 距 


JS (fa || Sa) = WAL, (fle) + -w) KL, (Ff Ilg) 10) 
JS 距离 满足 非 负 、 对 称 和 三 角 不 等 式 性 质 。 不 同 于 KL、MI 和 SHE， 还 可 以 定义 有 限 
个 概率 分 布 的 IS 距离 ， 并 且 人 允许 根据 各 个 概率 分 布 的 重要 性 加 权 。 研 究 表明 ，JS 方法 通过 
选择 使 JS 距离 最 大 的 项 目 ， 其 模式 判 准 率 明显 高 于 AR ASI MARI 和 MASI 方 法， 而 且 
JS 方法 的 项 目 上 曝光 更 均衡 ， 计 算 时 间 更 短 。 此 外 ，Kang A (2017) eT ea RIE LY 

JS 距离 ， 并 研究 了 JS 距离 与 互信 息 、Fisher 信息 量 的 关系 。 

二 3.3 约束 加 权 信 息 量 方法 

= Wang 等 人 (2012) Al Zheng $A, (2018) 都 指出 双 目标 CD-CAT 中 可 将 认 知 诊断 判 闪 


率 视 作 内 容 约束 ， 分 别提 出 加 权 信 息 量 方法 和 信息 量 乘 积 选 题 方法 〈information product 


approach, IPA) 。Wang 等 人 《〈2012) 考虑 到 优先 指标 MPI 中 gj; 作为 指数 导致 求 和 或 求 积 


的 项 数 等 于 项 目 考察 的 属性 个 数 从 而 带 来 不 可 比 问 题 。 于 是 ,他 们 改变 qj 的 位 置 提出 O HE 


N 阵 控制 指标 : P=T] [u-bu IE- -(t-8, - 94) ML-1,)] > KL 信息 控制 指 


S EP, =J, 0 -bD KLO, 0,)/257 RI DINA 模型 2 区 分 控制 指标 


‘= P,=(1-s,)(l-g,) 已， 然后 分 别 对 全 的 Fisher (SELINA. Jo, 1 是 属性 磊 的 目 


标 最 小 测量 次 数 。 与 了 和 PP 相 比 ， 忆 加 权 选 题 对 KS 和 0 的 估计 精度 都 最 高 (Wang et al., 


2012) . HERS), PRP EHF DNA 模型 外 ， 其 它 优先 指标 可 用 于 任何 诊断 模型 。 由 此 ， 


针对 特定 模型 提出 切合 模型 特点 的 指标 同样 具有 重要 意义 。 
IPA 方法 将 认 知 诊断 项 目 信息 量 视 作 极 大 优先 指标 并 与 能 力 信息 量 相 乘 而 得 。Zheng 等 


人 (2018) 考察 了 PWKL (6). KL,(6) 5 PWADI, -KL, (0) KRIL, 指出 IPA 方法 对 a 


AO 的 估计 比 ASI 和 ARI 更 准确 ， 同 时 IPA 没有 权重 要 求 ， 不 受 题库 和 极端 值 的 影响 。 特 


别 地 ，DWI 方 法 中 1/ SHE(&) 可 视 为 极 大 优先 指标 ， 从 而 DWI 方法 也 是 一 种 IPA 方法 。 另 


外 , 车 对 IPA 方法 取 对 数 就 转换 为 信息 量 对 数 之 和 , Bl log IPA = log PWKL(4) + log KL(0)， 


这 又 成 为 log PWKL (4) All log KL(Ô) 的 加 权 平均 。 因 此 ，IPA 在 一 定 程度 上 具备 双 目 标 


CD-CAT 项 目 选 择 方法 的 一 般 性 框架 。 


3.4 双 目 标 CD-CAT 选 题 策 略 简 评 


两 阶段 方法 、 信 息 量 加 权 平 均 方法 和 约束 加 权 信 息 量 方法 是 三 类 双 目 标 CD-CAT 选 题 
策略 ， 见 表 2。 首 先 ， 两 阶段 选 题 方法 将 a 和 0 的 信息 量 独立 地 应 用 于 选 题 。 于 是 ， 将 测验 
按 比例 分 成 多 个 阶段 或 者 结合 两 者 信息 建构 影子 测验 都 可 能 提高 两 阶段 方法 选 题 表现 。 其 
次 , 信息 量 加 权 平 均 方法 创新 性 地 将 a 和 9 的 信息 量 统 一 为 一 个 选 题 指标 , 但 二 者 取 值 相差 
较 大 。 于 是 ， 研 究 者 一 方面 运用 百 分 等 级 、 标 准 分 数 、 对 数 转 换 改进 信息 量 加 权 平 均 方 法 ， 
男 一 方面 通过 对 a 和 4 的 反应 分 布 加 权 来 建立 JS 距离 选 题 方 法 。 信 息 量 加 权 平 均 方 法 主要 


运用 了 CD-CAT 中 常用 的 PWKL、KL 和 SHE 选 题 指标 ， 并 且 表 现 较 好 的 DWI、ARI 和 JS 


方法 在 大 部 分 测验 条 件 下 对 KS 上 午 判 准 率 在 0.9 左右 , RMSE 在 0.4 左右 (Wang et al., 2014; 


Dai et al., 2016; Kang et al., 2017) ,测量 精度 不 够 高 。 因 此 , 今后 还 应 考察 多 种 信息 量 指标 、 


开发 双 目 标 CD-CAT 项 目 特征 指标 等 方式 研究 双 目 标 CD-CAT 选 题 策略 ， 提 高 测量 精度 。 
主意 到 , 权重 是 信息 量 加 权 平均 方法 的 重要 部 分 。 通 过 比较 0 到 1 之 间 多 个 权重 , Cheng 
和 Chang (2007) 指出 除 极端 权重 值 外 ， 不 同 权重 对 DI 方法 的 影响 很 小 ，Dai 等 人 《2016 ) 
发 现 权重 为 0.5 时 ，DWI 方法 表现 最 优 。Wang 等 人 (2014) 则 系统 对 比 了 三 类 权重 指标 。 


一 < 


第 一 ， 理 论 的 权重 ， 即 选择 第 t 个 项 目 时 权重 为 w=1/(L+1) ; 第 二 ， 实 证 的 权重 ， 即 基于 


[II 


pon 
So 
oO 


累积 信息 量 nf 和 Inf( 中 与 目标 信息 量 Inf, 和 Inf, 的 差距 占 目 标 信 息 量 比 


w, =w, (w +w) (其 中 w= (Inf; -Infa )/ Inf,» w, = (Unf, -—Inf!)/Inf.) ; B=, 


通过 属性 的 权重 向 量 (71,7,,.…7x ) 与 属性 水 平 信息 量 向 量 的 数量 积 构造 属性 层面 的 权重 。 他 


们 指出 ，ASI 和 ARI 方法 中 运用 理论 或 实证 权重 都 优 于 等 权重 。 理 论 权 重 适 用 于 高 质量 题 
库 , 实证 权重 适用 于 信息 量 较 少 的 题库 , 属性 层面 的 权重 则 适用 于 属性 具有 不 同 权 重 的 情况 。 
了 次， 约束 加 权 信 息 量 方法 可 以 视 作 CD-CAT 加 权 信 息 量 方法 的 扩展 。 特 别 地 ，IPA 方 
法 经 对 数 转 换 可 视 为 信息 量 加 权 平 均 方 法 , 而 加 权 平 均 DWI 方法 又 可 视 为 IPA 方法 。 因此 ， 
IPA 方法 具有 双 目 标 CD-CAT 选 题 策略 的 一 般 性 框架 。 最 后 , 双 目 标 CD-CAT 选 题 策略 集中 
于 提高 测量 精度 的 研究 ， 而 项 目 曝光 均匀 性 和 内 容 约 束 相 比 于 传统 CD-CAT 都 具有 新 的 特 
点 和 挑战 。 因 此 ， 今 后 可 以 借鉴 传统 CD-CAT 中 选 题 策略 的 思路 和 方法 ， 结 合 项 目 特征 、 
KS 和 能 力 的 信息 建构 双 目 标 CD-CAT 选 题 策略 ， 结 合 多 种 方法 研究 具有 非 统 计 约 束 的 选 题 


方法 。 


K2 双 目 标 CD-CAT 选 题 策略 汇总 表 


分 类 标准 两 阶段 选 题 信息 量 加 权 平 均 约束 加 权 信 息 量 


两 步 法 直接 加 权 平 均 : DI Q HERE, KL 信息 控制 指标 加 权 : 


P.-FI(0). PB:.FI(0), P,-FI(8) 


体 方法 


统一 量 纲 : ASI, ARI, 


影子 测验 方法 | MASI、MARI、DWI 信息 量 乘积 IPA 


分 布 反 应 加 权 : JS 


< 4 研究 展望 


CD-CAT 自 提 出 以 来 ， 因 其 对 知识 结构 的 诊断 功能 和 CAT 的 高 效 测验 模式 ， 得 到 下 


究 
者 的 广泛 关注 和 深入 研究 。 特 别 地 ， 针 对 CD-CAT 选 题 的 测量 精度 、 项 目 曝 光 和 内 容 约束 


问题 ， 研 究 者 不 仅 将 传统 CAT 的 选 题 策略 推广 到 CD-CAT， 还 基于 认 知 诊断 测验 的 特征 发 


展 了 独特 的 选 题 方法 。 不 仅 如 此 ， 随 着 研究 深入 和 实践 需要 ， 兼顾 能 力 和 KS 的 双 目 标 


CD-CAT 也 得 到 广泛 关注 , 并 有 大 量 研究 ,传统 CD-CAT 和 双 目 标 CD-CAT 结合 了 IRT、CDT 
和 CAT 的 理论 与 技术 。 它们 的 发 展 与 测量 理论 的 研究 与 实践 、 计 算 机 技术 的 发 展 密切 相关 。 

首先 , 近 二 十 年 来 认 知 诊断 模型 得 到 了 极 大 的 丰富 和 发 展 , 呈现 出 从 单一 测验 条 件 到 复 
杂 测 验 条 件 ， 从 低 阶 到 高 阶 ， 从 特殊 到 一 般 的 发 展 特点 。 一 方面 针对 二 级 评分 项 目 提 出 了 一 


般 化 G-DINA 模型 。 它 在 一 定 约束 条 件 下 可 得 到 DINA、DINO、NIDA、NIDO、RUM 和 


ACDM。 然 而 , 目前 CD-CAT 研究 还 以 约束 化 认 知 诊断 模型 为 基础 , 并 以 DINA 模型 和 RUM 


模型 为 主 。 因 此 ， 基 于 一 般 诊断 模型 研究 CD-CAT 具有 重要 意义 。 这 不 仅 能 统一 不 同 模型 
下 项 目 选 择 和 能 力 估计 算法 的 编码 过 程 ， 还 有 利于 比较 它们 在 不 同 模型 下 的 表现 。 


另 一 方面 ， 认 知 诊断 模型 还 围绕 G-DINA 和 约束 化 诊断 模型 扩展 了 复杂 测验 条 件 模型 ， 


如 多 级 评分 、 属 性 多 级 和 高 阶 模型 。 当 前 CD-CAT 以 二 级 评分 项 目 为 主 ， 并 有 少量 多 级 评 
分 项 目的 研究 。 于 是 ， 探 索 多 策略 、 属 性 多 级 评分 和 项 目 多 级 评分 甚至 更 复杂 测验 条 件 下 


CD-CAT 选 题 集 略 同样 是 今后 研究 的 重要 方向 。 


其 次 ，CD-CAT 中 结合 项 目 和 被 试 特征 是 改进 选 题 策略 的 重要 思路 。 于是， 针对 双 目 标 


CD-CAT， 如 何 构建 表征 能 力 和 认 知 特征 的 项 目 与 测验 特征 指标 ， 如 区 分 度 指 标 ， 如 何 基于 


双 目 标 认 知 诊断 测验 项 目 特征 构建 先 题 策略 都 是 具有 意义 的 研究 问题 。 此 外 , 目前 的 选 题 方 
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去 各 有 优势 与 不 足 ， 有 必要 探讨 它们 的 最 佳 组 合 模式 ， 加 强 非 统 计 约 束 选 题 策略 的 研究 。 
最 后 ，CD-CAT 在 国内 实践 还 处 于 起 步 阶 段 ， 仅 2009-2011 年 教育 部 组 织 了 数学 和 英语 
的 大 规模 CD-CAT 测试 (Liu et al., 2013) 。 因 此 ， 今 后 有 必要 研究 非 参 数 项 目 选择 方法 ， 


既 可 用 于 小 规模 课堂 诊断 实践 ， 还 能 为 大 规模 实践 应 用 收集 数据 做 准备 。 
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Item selection methods for cognitive diagnostic computerized adaptive 


testing: Characteristics, relations and new development 
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(2 Dongqi primary school, De Yang, 618000) 


Abstract: Dual-objective cognitive diagnostic computerized adaptive testing (CD-CAT), which 
considers knowledge status and ability simultaneously, has become more and more popular with 
the theoretical and practical development of CD-CAT. Item selection methods play a key role in 
CD-CAT. This paper systematically reviews existing item selection methods on 
traditional and dual-objective CD-CAT, and summarizes the types, 
characteristics, relations, and performance of these methods. Furthermore, several future research 
directions were illustrated. First, it is necessary to study item selection strategy with 
general cognitive models and under complex test conditions. Second, it is important to 
develop indexes representing items and test characteristic of dual-objective diagnostic testing. 
Finally, it is meaningful to conduct research on non-parametric item selection methods and 
practical applications of CD-CAT. 

Key words: computerized adaptive testing; cognitive diagnostic model; item selective strategy; 


measurement accuracy; non-statistical constraints 


